پیش پردازش داده های بدون ساختار برای سیستم های LLM و RAG [ویدئو]

Preprocessing Unstructured Data for LLMs and RAG Systems [Video]

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: این دوره یک کاوش عمیق از پیش پردازش داده های بدون ساختار را برای مدل های زبان بزرگ و سیستم های تولید افزوده بازیابی ارائه می دهد. شما با راه‌اندازی محیط توسعه و پیکربندی APIهای ضروری شروع می‌کنید و از یک پایه فنی محکم اطمینان می‌دهید. در مرحله بعد، به تکنیک های پیش پردازش داده ها، مقابله با چالش هایی مانند استخراج محتوا، تمیز کردن، و عادی سازی داده ها می پردازید و داده های خود را برای مدل های پیشرفته هوش مصنوعی آماده می کنید. همانطور که پیشرفت می کنید، دوره تجربه عملی را با انواع اسناد مختلف مانند فایل های PDF، HTML و PPTX ارائه می دهد. شما یاد خواهید گرفت که این فرمت های بدون ساختار را به داده های ساختاری تبدیل کنید که سیستم های هوش مصنوعی می توانند به راحتی آنها را پردازش کنند. ماژول‌های پیشرفته، تکه‌شدن، استخراج ابرداده و مدیریت اسناد پیچیده را با استفاده از تکنیک‌های پیشرفته مانند ترانسفورماتورهای بصری و آشکارسازهای طرح‌بندی اسناد پوشش می‌دهند. بخش آخر شما را در ساختن یک سیستم RAG کامل با استفاده از مهارت های کسب شده در طول دوره راهنمایی می کند. شما اسناد مختلف را از قبل پردازش می‌کنید، جستجوهای مشابه معنایی را پیاده‌سازی می‌کنید و عناصر را در یک پایگاه داده برداری ذخیره می‌کنید. در پایان، شما مجهز به ایجاد خطوط لوله داده هوشمند و تعامل با اسناد خود با استفاده از هوش مصنوعی خواهید بود که پروژه های مبتنی بر داده را به طور قابل توجهی بهبود می بخشد. یک محیط پیش پردازش کامل داده را پیکربندی کنید. استخراج و پاک کردن داده ها از انواع اسناد مختلف. برای پردازش کارآمد، داده ها را عادی و تکه تکه کنید. استخراج فراداده و تحلیل معنایی را انجام دهید. یک سیستم کامل Retrieval-Augmented Generation ایجاد کنید. تعامل با اسناد پردازش شده با استفاده از ابزارهای پیشرفته هوش مصنوعی. این دوره برای دانشمندان داده، مهندسان یادگیری ماشین و توسعه دهندگان هوش مصنوعی که می خواهند مهارت های خود را در پیش پردازش داده ها برای سیستم های LLM و RAG افزایش دهند ایده آل است. پیش نیازها شامل دانش اولیه برنامه نویسی پایتون، آشنایی با APIها و درک کلی مفاهیم یادگیری ماشین است. راه اندازی توسعه و پیکربندی API برای گردش کار پیش پردازش داده کارآمد. * تکنیک های پیش پردازش داده های پیشرفته برای PDF، HTML و PPTX با استفاده از چارچوب بدون ساختار. * یک سیستم RAG برای تعامل هوشمند با اسناد، تصاویر و جداول پیچیده بسازید.

سرفصل ها و درس ها

مقدمه Introduction

  • مقدمه ها و مطالب دوره و پیش نیازها Introductions and What the Course is About and Prerequisites

  • ساختار دوره Course Structure

راه اندازی محیط توسعه Development Environment Setup

  • راه اندازی محیط توسعه - بررسی اجمالی Development Environment Setup - Overview

  • حساب OpenAI API و کلید API را راه اندازی کنید Setup OpenAI API Account and API Key

  • حساب بدون ساختار و کلید API رایگان را تنظیم کنید Setup the Unstructured Account and FREE API Key

  • اجرای آزمایشی چارچوب بدون ساختار Unstructured Framework Test Run

پیش پردازش داده برای LLMs - Deep Dive Data Preprocessing for LLMs - Deep Dive

  • پیش پردازش داده ها Deep Dive - بررسی اجمالی Data Preprocessing Deep Dive - Overview

  • بررسی اجمالی پیش پردازش داده برای LLM - چرا پیش پردازش داده ها سخت است Data Preprocessing for LLMs Overview - Why Data Preprocessing is Hard

  • چالش ها با داده های بدون ساختار Challenges with Unstructured Data

  • چگونه استخراج محتوا کار می کند - تمیز کردن و عادی سازی داده ها How Content Extraction Works - Cleaning and Data Normalization

  • قطعه بندی و ساختاردهی داده ها و هماهنگی گردش کار Chunking and Structuring Data and Workflow Orchestration

  • چارچوب بدون ساختار - کل گردش کار و مرور کلی The Unstructured Framework - The Whole Workflow and Overview

عملی: چارچوب بدون ساختار - پیش پردازش HTML، PDF و اسناد PPTX Hands-on: The Unstructured Framework - Preprocessing HTML, PDFs & PPTX Documents

  • عملی: پیش پردازش یک فایل PDF و تجزیه داده های JSON استخراج شده Hands-on: Preprocessing a PDF File and Dissecting the Extracted JSON Data

  • عملی: پیش پردازش یک فایل PPTX (پاورپوینت). Hands-on: Preprocessing a PPTX (PowerPoint) File

  • عملی: پیش پردازش یک فایل HTML Hands-on: Preprocessing an HTML File

  • مزایای عادی سازی محتوا - خلاصه Benefits of Normalizing Content - Summary

خرد کردن و استخراج فراداده Chunking and Metadata Extraction

  • خرد کردن محتوا و استخراج فراداده - بررسی اجمالی Content Chunking and Metadata Extraction - Overview

  • یافتن عناصر مرتبط با فصل ها - عملی Finding Elements Associated with Chapters - Hands-on

  • تشابه معنایی - جستجوی ترکیبی و ذخیره اسناد در پایگاه داده برداری Semantic Similarity - Hybrid Search and Saving Documents to Vector Database

  • بازسازی کد - از پیش پردازش اسناد چندگانه خودداری کنید Code Restructuring - Avoid Multiple Document Preprocessing

  • چالش های تشابه معنایی - معیارهای تازگی اطلاعات Semantic Similarity Challenges - Information Recency Criteria

  • تقسیم بندی برای عناصر و مزایای سند - نمای کلی Chunking for Document Elements and Benefits - Full Overview

  • قطعه قطعه کردن محتوای سند - عملی Chunking Document Content - Hands-on

  • خلاصه Summary

پیش پردازش اسناد پیچیده - PDF و تصاویر Preprocessing Complex Documents - PDFs and Images

  • پیش پردازش اسناد پیچیده - PDF و تصاویر - مرور کلی Preprocessing Complex Documents - PDFs and Images - Overview

  • روش های تجزیه و تحلیل تصویر سند: آشکارساز طرح بندی سند و ترانسفورماتور بصری Document Image Analysis Methods: Document Layout Detector and Visual Transformer

  • مزایا و معایب ViT و DLD Advantages and Disadvantages of ViT and DLD

  • پیش پردازش فایل های HTML و PDF - سریع Preprocessing HTML and PDF files - Fast

  • پیش پردازش با تشخیص طرح بندی سند و مقایسه نتایج Preprocessing with Document Layout Detection and Comparing the Results

  • استخراج محتوای جدول - عملی Table Content Extraction - Hands-on

  • خلاصه کردن داده های جدول با LangChain - عملی Summarizing the Table Data with LangChain - Hands-on

یک سیستم RAG با استفاده از تکنیک های آموخته بسازید - مورد استفاده کامل Build a RAG System Using Learned Techniques - Full Use Case

  • همه چیز را کنار هم بگذارید - با استفاده از آنچه یاد گرفته اید یک سیستم RAG بسازید - مرور کلی Put it All Together - Build a RAG System Using What You've Learned - Overview

  • پیش پردازش یک فایل PDF و نمایش محتوای جدولی نیز - قسمت 1 Preprocessing a PDF File and Showing Tabular Content as Well - Part 1

  • فیلتر کردن منابع و سرصفحه ها از PDF - قسمت 2 Filtering out References and Headers from PDF - Part 2

  • فایل PPTX و MD را پیش پردازش کنید و عناصر سند را در پایگاه داده برداری ذخیره کنید: قسمت 3 Preprocess PPTX & MD File and Save Document Elements to Vector Database: Part 3

  • چت با اسناد خود - PDF - قسمت 4 Chat with Your Own Documents - PDF - Part 4

  • با اسناد خود گپ بزنید - اسناد MD و PPTX - نهایی Chat with Your Own Documents - MD and PPTX Documents - Final

جمع کنید Wrap up

  • چه خبر بعدی What's Next

نمایش نظرات

پیش پردازش داده های بدون ساختار برای سیستم های LLM و RAG [ویدئو]
جزییات دوره
3h 1m
38
Packtpub Packtpub
(آخرین آپدیت)
از 5
ندارد
دارد
دارد
Paulo Dichone
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Paulo Dichone Paulo Dichone

توسعه دهنده و معلم

سلام! من پائولو هستم. من مدرک علوم کامپیوتر از دانشگاه Whitworth دارم و یک متخصص برنامه نویسی هستم و به آن افتخار می کنم!

من تجربه گسترده ای در توسعه برنامه Android به ویژه در برنامه موبایل (اندروید و iOS) و توسعه وب دارم. من همچنین بنیانگذار Magadistudio هستم، یک شرکت توسعه برنامه تلفن همراه مستقر در شمال غربی داخلی زیبا (WA).

من علاقه زیادی به آموزش توسعه برنامه اندروید به مردم دارم. نشان دادن طناب‌های ساخت اپلیکیشن‌های اندرویدی شگفت‌انگیز، تجربه‌ای بسیار ارزشمند است! هدف من این است که شما را به سرعت راه اندازی کنم و برنامه های اندروید بسازید.

شما آزادی را که یک توسعه‌دهنده اندروید ارائه می‌دهد، باور نمی‌کنید.

من را در توییتر @buildappswithme دنبال کنید

برنامه نویس نرم افزار/برنامه - موبایل و وب

مدرس آنلاین: 2014 - حال

علوم کامپیوتر (BS)
دانشگاه ویتورث
سپتامبر 2006 - مه 2009